iT邦幫忙

0

(25)Python的基礎介紹和爬蟲

  • 分享至 

  • xImage
  •  

Python 網路爬蟲WebCrawler-Cookie操作實務(上)

基本流程
1.連線到特定網址,抓取資料
2.解析資料,取得實際想要的部分

Cookie
什麼是cookie?
Cookie 是一個小型文字檔案,儲存在使用者瀏覽器中。當您瀏覽網站時,設定於瀏覽器內的 Cookies,會讓瀏覽器記下一些特定的資訊以便未來能夠更加方便被使用。Ex:將您在網站上所打的文字或是一些選擇記錄下來。當下次再訪問同一個網站,伺服器會先看看有沒有上次留下的 Cookie 資料,有的話,會依據裡面的內容來判斷使用者,送出特定的網頁內容給您。

Cookie 是設定於使用者電腦的瀏覽器內,所以當您使用其他電腦連結相同網站時,Cookie 會重新紀錄。所以不用擔心您的 Cookie 資料會傳送到其他電腦中喔。

Cookie的用途
Cookie 是一種讓網站瀏覽更流暢方便的機制, 網站利用 Cookie 最廣泛的用途有以下幾種:
1.網路購物
2.自動登入
3.廣告投放

與伺服器的互動
連線時,放在request headers送出

追蹤連結
HTML超連結
在我們的網頁,HTML的原始碼中經常會包含網頁的超連結,使用者點選可以直接連結到該網頁
我們需要能夠抓取超連結的網頁

連續抓取頁面實務
解析頁面的超連結,並結合程式邏輯完成

下一篇會使用程式碼範例來讓大家更了解操作過程

參考來源:https://www.waca.net/support/id/445
https://www.youtube.com/watch?v=BEA7F9ExiPY&list=PL-g0fdC5RMboYEyt6QS2iLb_1m7QcgfHk&index=20


圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言